Firecrawl 集成接口指南
概述
本文档介绍 A1 平台与 Firecrawl 集成的相关接口函数及参数定义。Firecrawl 是一个强大的网站数据提取服务,可将整个网站转换为适用于大语言模型(LLM)的结构化数据格式。
一、firecrawl_crawl
功能说明
深度爬取指定网站,自动遍历所有链接并返回结构化数据。适用于需要通过边缘函数触发全站内容抓取的场景。
输入参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
api_key | String | * | Firecrawl 提供的 API 密钥,用于身份认证 |
url | String | * | 要爬取的目标网站地址 |
max_depth | Integer | - | 最大爬取深度,控制从起始 URL 开始的遍历层级 |
max_discovery_depth | Integer | - | 最大发现深度,限制发现新页面的层级 |
limit | Integer | - | 本次爬取最多处理的页面数量 |
输出参数
| 参数名 | 类型 | 说明 |
|---|---|---|
id | String | Firecrawl 返回的任务 ID,可用于后续查询任务状态或获取结果 |
url | String | 与任务关联的原始目标 URL |
二、firecrawl_map
功能说明
获取指定网站的完整链接结构映射,返回所有可发现的页面链接。适用于需要快速了解网站结构或构建站点地图的场景。
输入参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
api_key | String | * | Firecrawl 提供的 API 密钥,用于身份认证 |
url | String | * | 要映射的目标网站地址 |
search | String | - | 搜索条件,用于过滤特定链接 |
输出参数
| 参数名 | 类型 | 说明 |
|---|---|---|
links | String[] | 返回网站中所有映射到的页面链接列表 |
三、firecrawl_scrape
功能说明
提取单个网页的内容,并返回多种格式的结构化数据。适用于需要精确获取特定页面内容的场景。
输入参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
api_key | String | * | Firecrawl 提供的 API 密钥,用于身份认证 |
url | String | * | 要抓取的目标网页地址 |
formats | Enum | - | 期望返回的内容格式,可选值: • markdown - Markdown 格式• html - 清理后的 HTML• rawHtml - 原始 HTML• links - 页面链接列表 |
removeBase64Images | Boolean | - | 是否移除 base64 编码的图片以减少输出长度(保留图片描述文本) |
输出参数
| 参数名 | 类型 | 说明 |
|---|---|---|
markdown | String | 页面内容的 Markdown 格式表示 |
html | String | 清理后的 HTML 内容 |
raw_html | String | 原始 HTML 内容(未经过滤) |
links | String | 该页面中发现的所有链接 |
metadata | Object | 页面元数据,包括标题、描述、Open Graph 信息等 |
四、firecrawl_search
功能说明
根据搜索关键词查询相关网页,并返回结构化的搜索结果。适用于需要通过边缘函数触发搜索引擎查询并获取多页面数据的场景。
输入参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
api_key | String | * | Firecrawl 提供的 API 密钥,用于身份认证 |
query | String | * | 要执行的搜索关键词或短语 |
limit | Integer | - | 返回的最大搜索结果数量 |
lang | String | - | 搜索语言偏好,如 zh(中文)、en(英文) |
scrape_options | Object | - | 抓取选项,可指定返回的内容格式(如 markdown、html 等) |
输出参数
| 参数名 | 类型 | 说明 |
|---|---|---|
description | String[] | 所有匹配结果的描述信息列表 |
url | String[] | 所有匹配结果的链接地址列表 |
markdown | String[] | 每个搜索结果对应的 Markdown 格式内容列表 |
metadata | Object[] | 每个页面的元数据列表(标题、描述、Open Graph 数据等) |
html | String[] | 每个页面清理后的 HTML 内容列表 |
五、使用示例
5.1 网站爬取流程
5.2 单页抓取流程
5.3 网站映射流程
5.4 搜索流程
5.5 完整业务场景
六、注意事项
| 项目 | 说明 |
|---|---|
| API 密钥 | api_key 需在 Firecrawl 官网 申请 |
| 请求限制 | 免费版有请求次数限制,请合理设置 limit 参数 |
| 爬取深度 | max_depth 过大可能导致爬取时间过长,建议从较小值开始 |
| 格式选择 | 根据使用场景选择合适的 formats,Markdown 格式更适合 LLM 处理 |
| 错误处理 | 建议对接口返回结果进行异常捕获和处理 |
如需更多帮助,请参考 Firecrawl 官方文档 或联系技术支持。